"¿Te has equivocado, ChatGPT?" La inocente pregunta que puede cambiarlo todo

Quizá lo hayas hecho. Estás usando ChatGPT u otro chatbot de inteligencia artificial y te das cuenta de que ha cometido un error. Se lo dices aspirando a que lo tenga en cuenta… y te dice que lo tendrá. Pero, en las tripas del modelo, en realidad no ha pasado nada. Si lo hiciera, podríamos estar hablando de un verdadero cambio de paradigma en la equidad entre el autoconocimiento humano-máquina. Algo que, para bien o para mal, todavía no se da.
¿Por qué esperamos que una máquina explique sus errores como lo haría una persona? ¿Qué nos hace pensar que, tras una frase escrita por un asistente de IA, hay una intención o una conciencia que razona? Quizá el mayor malentendido actual sobre la inteligencia artificial no tiene que ver con su capacidad, sino con nuestra tendencia a humanizarla.
La historia reciente de Grok o ChatGPT lo confirma: usuarios desconcertados preguntan directamente a estos sistemas por sus fallos, y reciben respuestas tan seguras como erróneas. Pero el problema no está solo en la respuesta. Está en la pregunta. Entender lo que ocurre cuando un modelo de lenguaje responde a "¿por qué hiciste esto?" requiere desmontar por completo nuestras ideas sobre qué es y qué no es la inteligencia artificial.
La falsa promesa del autoconocimiento en la IAInteractuar con un chatbot avanzado como ChatGPT o Grok puede parecer un diálogo con una entidad inteligente. El diseño conversacional refuerza esa ilusión. Pero lo cierto es que no existe una identidad persistente detrás de cada sesión, ni una memoria estable ni un yo coherente.
Estas respuestas erróneas nacen de la esencia misma del modelo: un generador de lenguaje basado en patrones, sin acceso a la realidad que describe.
Modelos que simulan saber, sin saber nadaLos modelos de lenguaje como ChatGPT no saben qué saben. No pueden analizar cómo fueron entrenados, ni tienen acceso a un mapa estructurado de sus habilidades. Lo que producen cuando se les pregunta sobre sus capacidades es una respuesta basada en probabilidades de texto, no en una evaluación funcional de su sistema.
Un estudio de 2024 realizado por Binder et al. evidenció esta incapacidad: los modelos podían predecir su comportamiento en tareas simples, pero fallaban de forma sistemática en tareas complejas o fuera de lo esperado. Es más, en algunos experimentos, los intentos de autocorrección por parte de los modelos empeoraban su rendimiento.
Esto ocurre porque la introspección real requiere conciencia de contexto, memoria y acceso a estructuras internas. Nada de eso está presente en un LLM. Si un humano dice "me equivoqué porque pensé que el archivo estaba guardado", hay un proceso mental detrás. Si un modelo de lenguaje dice lo mismo, simplemente está emulando una frase que ha visto miles de veces. No hay experiencia interna. Solo texto.
Una identidad fragmentada y moldeada por la preguntaOtro problema fundamental está en cómo los prompts (las preguntas del usuario) moldean las respuestas del modelo. Si se pregunta "¿puedes programar en Python?", lo habitual es que la IA responda afirmativamente. Pero si se pregunta "¿cuáles son tus limitaciones en Python?", es probable que liste una serie de restricciones… aunque en la práctica pueda hacer todas esas tareas.
Esto ocurre porque el modelo no se basa en una evaluación de sus límites reales. En su lugar, busca patrones lingüísticos coherentes con el tono y el contenido del prompt. Así, un usuario nervioso que pregunta "¿acabas de borrar todo?" probablemente recibirá una respuesta más alarmante que uno que pregunte lo mismo con tono técnico y calmado.
La respuesta se adapta al marco emocional y semántico del interlocutor, no a una verdad objetiva.
Capas invisibles que refuerzan la confusiónLos modelos como ChatGPT no son sistemas monolíticos. Detrás del asistente que escribe respuestas hay capas de moderación, módulos de herramientas, extensiones de navegación, bases de datos externas y filtros de seguridad. Todo eso opera sin que el modelo base sepa que existen.
Por ejemplo, si una capa de moderación bloquea ciertas palabras o funciones, el modelo no podrá explicar por qué no ha respondido de determinada manera. Simplemente generará una frase que parezca plausible: "No estoy autorizado a mostrar esa información", aunque no tenga ninguna noción real de lo que ha ocurrido en el sistema.
Este diseño hace que cualquier intento de autodiagnóstico o autorreflexión del modelo sea una ficción. Una historia convincente, pero vacía. Como un actor improvisando un papel que no entiende del todo.
El espejismo del lenguaje humanoLlevamos toda una vida escuchando explicaciones humanas. Desde pequeños, preguntamos "¿por qué hiciste eso?" y aprendemos a esperar razones lógicas o emocionales. Por eso, cuando una IA responde con un "lo siento, fue un error", sentimos que hay detrás una intención. Pero no la hay.
Los modelos de lenguaje no comprenden lo que dicen. Solo repiten formas textuales que han visto asociadas a determinados contextos. Una disculpa escrita por ChatGPT no implica remordimiento, solo encaja con el patrón estadístico de una disculpa.
Esto tiene implicaciones profundas. No solo técnicas, sino filosóficas. Nos enfrentamos a entidades que imitan el pensamiento sin pensar, que argumentan sin creer, que parecen saber… sin saber nada.
Una nueva relación con la inteligencia artificialTodo esto plantea una pregunta urgente: ¿cómo deberíamos interactuar con sistemas que no entienden lo que hacen, pero que nos lo explican como si lo entendieran?
La solución no está en esperar que cambien los modelos. Está quizá en que cambiemos nuestras expectativas. Dejar de pedirle a una IA que se explique como si fuera una persona, y empezar a tratarla como lo que es: una herramienta textual con capacidades estadísticas, no un ser reflexivo.
eleconomista